查看原文
其他

SFFAI分享 | 古纾旸:Generative model is more than just GANs【附PPT与视频资料】

古纾旸 人工智能前沿讲习 2022-04-16

关注文章公众号

回复"SFFAI22"获取PPT资料

视频资料可点击下方阅读原文在线观看


导读


近些年来,随着深度学习和对抗生成网络的兴起,图像生成领域取得了巨大的进步。然而,对于计算机视觉领域的生成问题,并非只有生成对抗网络这样唯一的解决途径。在SFFAI22我的演讲中,我们将以两篇工作为例,介绍常见的生成模型,以及对于生成模型中的不同问题我们的解决方案:

  1. With GAN: 在肖像编辑的问题中,我们怎么利用GAN同时解决多样性,高质量和可控性的问题。

  2. Without GAN: 在图像风格迁移的任务中,我们怎么解决局部信息和全局信息难以同时保留的问题。


作者简介


古纾旸,17级中国科学技术大学和微软亚洲研究院(MSRA)联合培养博士生,主要研究领域为计算机视觉中的生成模型,具体研究方向有图像风格迁移,生成对抗网络,人脸图像编辑等。欢迎和大家一起交流讨论!


具体内容推文分享


1. 首先简单介绍了常见的生成模型,如AE/VAE, GAN, Glow等。

2. 介绍了一个用GAN解决人脸肖像编辑任务的例子。前人在这方面的工作有着以下一些问题:或者专注于特定的任务(eye in-painting),或者需要大量标注了的表情的数据(GANimation),或者生成的人脸质量不高(neural face editing),我们希望能有一种通用的,高质量的,可控的人脸肖像编辑的方法。基于此,我们提出了我们的论文”Mask-Guided Portrait Editing with Conditional GANs”。

 图一 我们的算法框架

我们的网络主要分为三个部分,分别称为Local Embedding Sub-Network, Mask-Guided Generative Sub-Network, Background Fusing Sub-Network,分别用来对局部特征编码,借助人脸分割图片进行真实人脸渲染和前景背景融合。

我们进行了对比实验来分别验证了三个子网络的有效性,通过进行人脸图像编辑,人脸交换,渲染人脸的实验来证明了我们的方法具有通用,高质量,可控的特点。此外,由于我们的方法具有从人脸分割图片到人脸一对多的特性,我们将其用于人脸图像分割的数据增强,也能得到更好的结果。我们也展示了我们的方法在极端条件下的结果,来证明我们的方法具有很好的鲁棒性。

图二  肖像编辑的实验结果

3. GAN是一个强有力的工具,然而有些情况并不适合用GAN来解决,下面举了一个图像风格迁移的例子。

之前的图像风格迁移的方法一般或者注重于全局风格特征,或者注重于局部风格特征统,我们一般用

图三 全局风格损失函数

来衡量全局风格特征,用

图四 局部风格损失函数

来衡量局部风格特征。我们希望能提出一种简单快速的算法,同时兼顾到两者。

在论文”Arbitrary Style Transfer with Deep Feature Reshuffle”中, 提出利用深层特征重排列(deep feature reshuffle)来做到这一点。

图五 图像层面的重排列(reshuffle)示意图

核心想法是通过深层特征重排列,我们可以同时最小化全局风格损失函数与局部风格损失函数。我们在理论上证明了这一点。

图六 我们的核心想法的简短理论证明

在实际运算的过程中,我们对重排列的强约束进行了放松,并提出了一种快速的近似算法。通过在多层进行重排列,并逐层用EM算法进行优化,我们能得到同时兼顾全局风格与局部风格的结果。我们也在纹理生成等相关任务上验证了我们的想法的有效性。

图七 我们风格迁移的实验结果

如果我们直接用GAN来做这样的任务,一方面我们很难解释清楚生成网络中到底做了什么,另一方面不能直接对任意给定的两张图片进行风格迁移。我们选择了从理论上去分析问题,根本的解决了这样的问题,并在实验上能取得显著更好的结果。这启发我们不能遇到生成类的问题都想着直接利用生成对抗网络来做,一定要仔细分析问题,再选择合适的工具。


Take home message


  1. 生成对抗网络是一个很强大的工具。

  2. 我们一定不能盲目使用生成对抗网络,对于不同的任务要仔细分析问题。

  3. 现在生成模型方面还有很多能做的东西,大家可以仔细思考选择自己的课题。


Reference

Arbitrary style transfer with deep feature reshuffle. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 8222–8231, 2018.Eye in-painting with exemplar generative adversarial networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7902–7911, 2018. 1Ganimation: Anatomically-aware facial animation from a single image. In Proceedings of the European Conference on Computer Vision (ECCV), pages 818–833, 2018. 1Neural face editing with intrinsic image disentangling. In Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on, pages 5444–5453. IEEE, 2017. 1Mask-Guided Portrait Editing with Conditional GANs. Will be published in CVPR2019.High-resolution image synthesis and semantic manipulation with conditional gans. arXiv preprint arXiv:1711.11585, 2017.Unpaired image-to-image translation using cycle-consistent adversarial networks. arXiv preprint, 2017.


SFFAI招募召集人!

Student Forums on Frontiers of Artificial Intelligence,简称SFFAI。

现代科学技术高度社会化,在科学理论与技术方法上更加趋向综合与统一,为了满足人工智能不同领域研究者相互交流、彼此启发的需求,我们发起了SFFAI这个公益活动。SFFAI每周举行一期线下活动,邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果,使专注于各个细分领域的研究者开拓视野、触类旁通。

SFFAI自2018年9月16日举办第一期线下交流,每周一期,风雨无阻,截至目前已举办18期线下交流活动,共有34位讲者分享了他们的真知灼见,来自100多家单位的同学参与了现场交流,通过线上推文、网络直播等形式,50000+人次参与了SFFAI的活动。SFFAI已经成为人工智能学生交流的第一品牌,有一群志同道合的研究生Core-Member伙伴,有一批乐于分享的SPEAKER伙伴,还有许多认可活动价值、多次报名参加现场交流的观众。


2019年春季学期开始,SFFAI会继续在每周日举行一期主题论坛,我们邀请你一起来组织SFFAI主题论坛,加入SFFAI召集人团队。每个召集人负责1-2期SFFAI主题论坛的组织筹划,我们有一个SFFAI-CORE团队来支持你。一个人付出力所能及,创造一个一己之力不可及的自由丰盛。你带着你的思想,带着你的个性,来组织你感兴趣的SFFAI主题论坛。

当召集人有什么好处?

谁可以当召集人?

怎样才能成为召集人?

为什么要当召集

了解我们,加入我们,请点击下方海报!



扫描上方图片二维码进入报名页面


历史文章推荐:

语音关键词检测方法综述【附PPT与视频资料】

脉冲神经网络与小样本学习【附PPT】

基于深度学习的人脑视觉神经信息编解码研究进展及挑战【附PPT】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

基于姿态的人物视频生成【附PPT与视频资料】

阅读+验证:面向无答案问题的机器阅读理解【附PPT与视频资料】

上下文敏感的改写式回复生成模型【附PPT与视频资料】

基于人体骨架的行为识别【附PPT与视频资料】

基于深度学习的通用物体检测算法对比探索【附PPT与视频资料】



录播视频,请点击下方
阅读原文
观看
↓↓

你正在看吗?👇

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存